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摘 要 : 


[目的 /意义 ] 使 用 融合 多 属性 的 量化 方法 ,快速 且 有 效 地 挖掘 出 领域 内 多 个 技术 创新 主题 ,为 技术 创新 方向 的 确 
定 提供 借鉴 。[ 方法 “过程 ] 将 LDA( Latent Dirichlet Allocation) 主 题 模型 与 专利 价值 评价 指标 相 结 合 ,提出 一 种 控 
握 技 术 创新 主题 的 量化 方法 。 首 先 ,综合 运用 TF-IDF、 困 惑 度 和 四 分 位 数 法 构建 领域 专利 的 LDA 主题 模型 。 然 
后 ,利用 LDA 输出 的 概率 分 布 给 阵 ,结合 专利 价值 评价 指标 (权利 要 求 和 IPC) ,构建 量化 指标 体系 。 接 着 ,选取 芯 
片 专利 进行 验证 实验 ,计算 量化 指标 并 运用 热力 图 对 其 可 视 化 ,识别 出 技术 创新 主题 。 最 后 ,基于 专利 .LDA 的 输 
出 给 阵 、 创 新 主题 和 量化 指标 之 间 的 映射 关系 ,进行 专利 筛选 和 技术 创新 主题 的 合理 标记 。| 结果 /结论 ] 通 过 六 
请 微 电 子 领域 专家 和 参考 最 新 国内 外 芯片 技术 两 种 方式 对 实验 结果 进行 评估 ,结果 表明 :融合 多 属性 的 领域 技术 
创新 主题 挖 气 方 法 能 够 快速 且 有 效 地 挖掘 出 多 个 技术 创新 主题 ,在 实践 层面 可 以 更 好 地 为 相关 领域 企业 和 科技 


工作 者 发 现 技 术 创新 主题 提供 思路 。 
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出 ,科技 
被 摆 在 国家 发 展 全 局 的 核心 位 置 , 成 为 提高 社会 
生 焉 力 和 综合 国力 的 战略 支撑 。 在 这 种 国家 战略 背景 
下 5 科技 情报 因 其 能 为 科技 创新 提供 全 局 性 ,战略 性 的 
决 俩 支撑 显得 尤为 重要 。 因 此 ,选择 何 种 数据 源 作为 
获取 前 沿 技 术 创 新 情报 的 可 靠 途 径 就 成 为 学 者 们 研究 
的 对 象 。 

在 众多 科技 文献 数据 中 ,专利 数据 是 学 术 界 最 党 
用 的 技术 创新 衡量 指标 " ,因此 ,专利 数据 成 为 获取 技 
术 创 新 情报 的 有 效 途 径 之 一 。J. Schmookle"” 在 研究 
中 使 用 专利 数据 表征 技术 创新 ,以 1836 - 1957 年 美国 
铁路 运输 业 .农业 .造纸 业 和 石油 加 工业 的 专利 申请 量 
考察 这 4 个 行业 的 技术 革新 情况 。Z，Griliches™" 提出 
专利 数据 是 技术 创新 的 重要 信息 来 源 ,并 且 在 完整 性 
和 技术 创新 信息 披露 等 方面 ,专利 数据 具有 其 他 指标 


不 可 替代 的 优势 。U. Schmoch ”研究 发 现 专利 数据 可 
以 用 于 分 析 特 定 领域 的 技术 创新 水 平 ,弥补 了 研发 预 
算 和 研发 人 员 等 指标 通常 只 在 总 体 层 面 上 进行 统计 的 
不 足 。 经 济 合 作 与 发 展 组 织 ( Organization for Economic 
Co-operation and Development，OECD ) 5 指出 ,专利 和 
专利 数据 不 仅 能 揭示 发 明 所 属 的 技术 领域 ,还 能 掌 
发 明 申 请 人 、 授 让 人 和 发 明 人 的 相关 信息 。 赵 阳 等 " 
指出 , 随 着 专利 数据 的 飞速 增长 ,学 术 界 用 于 挖掘 专利 
技术 创新 信息 的 手段 (专利 检索 .专利 地 图 .专利 引文 、 
专利 网 络 、 专 利文 本 挖掘 ) 也 在 快速 更 新 迭代 。 

国内 外 学 者 充分 认识 到 专利 数据 衡量 技术 创新 的 
可 行 性 ”。 因 此 ,他 们 就 如 何 利 用 专利 数据 高 效 、 准 确 
地 识别 出 技术 主题 展开 了 大 量 的 研究 工作 。 根 据 相关 
研究 ,技术 主题 识别 主要 分 为 两 个 方向 :一 是 基于 专利 
引用 特征 ,二 是 基于 专利 文本 内 容 特征 。 其 中 ,基于 专 
利 引 用 特征 的 技术 主题 识别 方法 较 早 受到 学 者 的 关 
注 。C.， Choi 等 “构建 了 专利 引文 网 络 ,利用 主 路 径 分 
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以 芯片 领域 专利 为 例 [ 可 ] China$iv 舍 售 期 乔 


析 算 法 识别 技术 主题 。0. Kwon 等 ”构建 了 专利 引文 
耦合 网 络 和 共 引 网 络 ,综合 分 析 专利 分 布 情况 从 而 识 
别 技术 主题 。 张 欣 等 ”将 改进 的 PageRank 算法 与 专 
利 的 被 引 次 数 和 专利 年 龄 结合 ,并 将 其 应 用 到 OLED 
领域 中 来 识别 核心 专利 。 随 着 文本 聚 类 、LDA 主题 模 
型 中 和 社区 识别 "中 等 自然 语言 处 理 技术 的 发 展 , 基 
于 内 容 特征 的 技术 主题 识别 方法 也 逐渐 受到 学 者 的 重 
视 。C.， Hayoung 等 中 提出 识别 专利 潜在 技术 创新 主 
题 的 算法 ,利用 增强 现实 专利 的 摘要 内 容 , 识 别 出 具 有 
潜在 创新 价值 的 技术 主题 。 伊 惠 芳 等 '“ 结合 LDA 模 
型 和 战略 坐标 图 方法 进行 专利 文本 内 容 分 析 , 识 别 出 
技术 主题 及 其 结构 特征 。 范 宇 等 "1 提出 了 应 用 于 专 
利 内 容 聚 类 的 主题 模型 和 聚 类 算法 ,将 潜在 狄 利克 雷 
分 布 (LDA) 主题 模型 和 OPTICS 算法 相 结合 进行 核心 

主题 分 析 。 综 合 现 有 研究 分 析 发 现 ,虽然 基于 专 
利 引文 特征 的 识别 方法 能 够 较为 有 效 地 识别 出 领域 技 
> 主题 ,但 由 于 引文 分 析 存在 引文 时 灌 性 ,所 以 ,识别 
| 甬 技 术 主 题 在 时 效 性 ,准确 性 方面 存在 一 定 的 缺陷 。 
再 者 ,基于 专利 文本 内 容 相 比 基 于 引文 特征 的 方法 具 


综 上 所 述 ,针对 目前 利用 专利 数据 进行 技术 主题 
挖掘 的 不 足 , 本 文 提出 融合 多 属性 的 量化 方法 ,快速 且 
有 效 地 挖掘 出 领域 内 多 个 技术 创新 主题 ,其 中 ,技术 创 
新 主题 是 指 可 以 发 展 或 改进 的 广义 技术 主题 ” 。 主 
要 创新 之 处 在 于 :中 避免 专利 引文 分 析 的 时 滞 性 。 使 
权利 要 求 数 与 IPC 分 类 数 '“ 替代 引文 量 ,可 以 随机 
选取 大 量 的 领域 专利 作为 语 料 挖掘 技术 主题 ,最 大 程 
度 地 规避 人 为 因素 影响 最 终结 果 。@ 弥 补 技 术 主 题 在 
经 济 和 技术 属性 方面 的 缺失 。 研 究 表明 有 价值 的 专利 
表现 为 专利 权利 要 求 的 数量 多 而 且 技 术 和 覆盖 范 围 
广 呈 ,其 中 专利 涉及 的 IPC 分 类 越 多 , 则 说 明 该 专利 
涉及 的 技术 领域 越 广 。 因 此 ,本 文 引 入 专利 价值 评价 
指标 ”中 的 权利 要 求 数 和 IPC 分 类 。 国 融合 多 属性 
构建 量化 指标 体系 。 综 合 研 究 LDA 概率 分 布 矩 阵 与 
专利 价值 评价 指标 ,多 维度 定义 量化 指标 ,构建 识别 技 
术 创 新 主题 的 量化 指标 体系 。 


2 研究 设计 


本 文 的 研究 设计 前 后 分 为 三 个 部 分 :中 技术 特征 


| 


篆 呈 定 的 优势 (不 存在 引文 时 滞 性 ) ,但 同样 存在 一 定 
足 ,如 从 专利 标题 .摘要 等 文本 内 容 中 挖 据 技 术 主 
题 5 公 仅 从 自然 语言 处 理 的 角度 进行 考量 ,并 没有 考虑 


词 向 量化 ; 包 量 化 指标 体系 构建 ;@@ 技 术 创新 主题 控 
掘 ,其 中 @ 量 化 指标 体系 构建 是 本 文理 论 研究 的 核心 ， 
同时 也 是 主要 创新 所 在 。 研 究 设计 的 具体 过 程 如 图 1 


括 审 主题 需要 具备 的 经 济 和 技术 属性 。 所 示 ; 
a 之 1 
技术 特征 词 向 量化 | 量化 指标 体系 构建 | 技术 创新 主题 挖掘 
1 
CS | 基于 困惑 度 确定 LDA 最 优 主 题 数 语料库 I 主题 创新 度 热 力 区 
[1 J 
r= I 1 
© 1 LDA IPC. | 识别 技术 创新 主题 
语料库 预 处 理 1 南 ee 下 = 
ss vy vy es. 
六” | 只 | -人 本 -特征 语 生 亲 | [文档 一 主 题 省 阵 | 一 一 一 人 语料库 
有 了 1 
构建 向 量 空间 模型 | | 哈 
加 | 文 伪证 了 | 斤 术 他 是 
| 法 HrTTRNM [crs] [cm PC | 
1 | | | | 创新 主题 文档 IPC 和 标题 
1 
| y 1 
| TIQ)=TVCO) x TLVG) | 标记 技术 创新 主题 
| 
| | 
| 
1 


1 研究 设计 


2.1 技术 特征 词 向 量化 

技术 特征 词 向 量化 主要 分 为 两 部 分 :数据 预 处 理 
和 构建 向 量 空间 模型 。 

(1) 数 据 预 处 理 。 首 先 对 语 料 进行 分 词 ,然后 去 
除 停 用 词 . 词 干 还 原 , 最 后 去 除 标点 符号 、 特 殊 符号 和 
数字 。 在 词 频 和 矩阵 中 仍 会 出 现 一 些 噪声 词汇 ,如 : 


method .system .action 等 ,通过 编写 程序 去 除 这 些 噪 声 
词汇 。 

(2) 构 建 向 量 空间 模型 。 首 先 根据 确定 的 技术 
特征 词 数量 ,将 预 处 理 后 的 语 料 转换 为 词 频 (TF) 矩 
阵 "” ;然后 将 词 频 (TF) 和 矩阵 转换 成 逆 文 本 词 频 (IDF ) 矩 
阵 "” ;最 后 将 TF 与 IDF 矩阵 相 乘 生成 TF-IDF 矩阵 。 
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2.2 量化 指标 体系 构建 

量化 指标 体系 构建 是 本 文 研究 成 果 的 重点 所 在 ， 
通过 构建 量化 指标 体系 ,识别 出 技术 创新 主题 ,不 
再 是 仅 基 于 自然 语言 处 理 属 性 的 技术 主题 ,还 将 经 济 


和 技术 属性 考量 在 内 。 
主要 分 为 两 个 部 分 :构建 LDA 主题 模型 ”和 构建 
量化 指标 体系 。 


2.2.1 构建 LDA 主题 模型 

首先 使 用 基于 困惑 度 ” 的 方法 确定 最 优 主 题 数 ， 
目前 普遍 认为 应 用 LDA 的 最 大 问题 是 无 法 确定 最 优 
主题 数目 ” 。 本 文采 用 困惑 度 方法 确定 LDA 主题 模 
型 的 最 优 主题 数 。 将 数据 集 分 为 训练 集 与 测试 集 , 使 
用 TF-IDF 对 数据 集 加 权 处 理 , 利 用 加 权 后 的 训练 集 构 
建 EDA 模型 ,由 于 LDA 在 专利 文本 分 析 方 面 的 优 


势 > ,我 们 将 基于 LDA 概率 主题 建 模 生成 专利 文档 


> 


TT | 严 级 : 
CN | CIM CTS TWM IPC. IPC,, IPC,.! 
| 


I 级 | ! I 级 


-主题 和 主题 - 特征 词 的 概率 分 布 矩 阵 。 等 模型 训练 
结束 后 ,将 测试 集 作为 语 料 计 算 LDA 模型 在 不 同 主题 
下 的 困惑 度 ,最 终 选 取 困 惑 度 最 小 时 的 主题 数 作为 模 
型 的 最 优 主题 数 ;然后 正式 构建 LDA 主题 模型 ,此 时 
加 权 语 料 集 和 最 优 主 题 数 两 项 重要 构建 元 素 准 备 完 
成 ,构建 LDA 主题 模型 ,最 终生 成 文档 - 主题 矩阵 和 
主题 - 特征 词 矩 阵 。 
2.2.2 构建 量化 指标 体系 

为 了 使 技术 主题 不 仅 具 有 自然 语言 处 理 的 属性 而 
且 具 有 经 济 和 技术 属性 ,运用 量化 思想 处 理 LDA 输出 
的 概率 分 布 矩阵 、 权 利 要 求 数 和 IPC 分 类 数 ,然后 根据 
相关 理论 研究 成 果 ,定义 量化 指标 ,构建 识别 技术 创新 
主题 的 三 级 量化 指标 体系 ,如 图 2 所 示 。 

构建 量化 指标 体系 分 为 三 部 分 :中 亚 级 量化 指标 
定义 ;@ 开 级 量化 指标 定义 ;@) I 级 量化 指标 定义 。 


CTM(Corpus Topic Mean) 


IPPC.PC-Claim) 
[PC.,(IPC-Claim-Normalization) 
[PC (IPC-Claim—Normalization—Sum) 


TWM(Topic Word Mean) 
四 一 TVC(Topic Value Centrality) 
CTS(Corpus Topic Standard) 


TI(Topic Innovation) 


TLV(Topic Latent Value) 


rm 2 量化 指标 体系 


〇 (1) 于 级 量化 指标 定义 。LDA 主题 模型 构建 完 
毕 ,生成 两 个 概率 分 布 矩 阵 (文档 - 技术 主题 .技术 主 
题 -特征 词 )。 基 于 此 ,我 们 将 定义 具有 自然 语言 处 理 
属性 的 量化 指标 (CTM .CTS TWM ) ,并 基于 IPC 分 类 


技术 主题 概率 的 标准 差 ,计算 公式 如 式 (2) 所 示 。 
CTS 表示 技术 主题 在 当前 语料库 内 技术 价值 ”的 稳 
定性 ,稳定 性 衡量 该 技术 主题 在 当前 语料库 内 技术 价 
值 的 离散 程度 。CTS 值 越 小 ,表示 技术 主题 在 当前 语 


数 和 权利 要 求 数 定义 具 有 经 济 和 技术 属性 的 量化 指标 
(IPC, IPC,, PC ) 。 

CTM( Corpus Topic Mean ) 表示 在 语料库 范围 内 技 
术 主 题 概率 的 均值 ,计算 公式 如 式 (1) 所 示 。CTM 
表示 技术 主题 在 当前 语料库 内 技术 价值 "的 大 小 ， 
CTM 值 越 大 ,表示 技术 主题 在 当前 语料库 内 所 具有 的 
技术 价值 越 大 ,反之 亦 然 。 


1 
CTMO) = HS 


式 (1) 
其 中 ,N 表示 语料库 内 专利 文档 的 数量 ;M 表示 主 

题 数 量 ;t; 表 示 主 题 j 在 第 i 篇 专利 文档 的 概率 值 。 
CTS( Corpus Topic Standard ) 表示 在 语料库 范围 内 


料 库 内 的 技术 价值 越 稳定 ,反之 亦 然 。 


CTS()) = /Cm 式 (2) 


其 中 ,N 表示 语料库 内 专利 文档 的 数量 ;M 表示 主 
题 数量 ;6 表示 主题 j 在 第 i 篇 专利 文档 的 概率 值 ; 
CTM 表示 主题 j 在 语料库 中 的 均值 。 

TWM (Topic Word Mean) 表示 技术 主题 的 特征 词 
概率 的 均值 ” ,计算 公式 如 式 (3) 所 示 。 在 计算 TWM 
时 ,为 了 选择 对 技术 主题 解释 能 力 强 的 特征 词 , 引 入 四 
分 位 数 法 将 每 个 技术 主题 下 的 特征 词 按照 概率 值 
降序 排序 ,选择 其 中 前 四 分 之 一 的 特征 词 计算 TWM 的 
值 ,间接 地 优化 了 主题 - 特征 词 概率 分 布 和 矩阵 。TWM 
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(11) :96 -107. 


ChinaXjv 合 作 期 于 
以 芯片 领域 专利 为 例 [ 汪 dl 并 恨 寓 《5 ,2 项 a 


表示 技术 主题 被 解释 程度 的 大 小 ,TWM 值 越 大 ,表示 
技术 主题 被 解释 的 越 充分 , 即 技术 主题 当前 具有 的 技 
术 价 值 越 具 有 说 服 力 ,反之 亦 然 。 


,lu 
TWMO) = 记 > 


式 (3) 


其 中 ,K 表示 特征 词 的 数量 ;M 表示 主题 数量 ;t， 
表示 主题 j 的 第 i 个 特征 词 的 概率 。TWM(j) 表 示 主 是 
j 的 特征 词 概率 均值 。 

IPC 分 类 数 和 权利 要 求 数 是 专利 技术 价值 的 评价 
指标 "9 ,与 专利 评价 指标 的 被 引文 数 相 比 ,前 面 两 者 
的 数量 不 会 随 着 时 间 变化 而 改变 ,后 者 则 会 随 着 时 间 
动态 增长 。IPC 分 类 数 表示 专利 技术 的 覆盖 范围 , 研 
究 表明 1 :专利 的 IPC 分 类 数 越 大 ,其 技术 价值 越 高 ， 
产生 的 经 济 效益 也 越 大 ;权利 要 求 数 表示 专利 技术 被 
保护 宽度 ,研究 表明 权利 要 求 数 与 专利 技术 价值 有 很 
娃 的 相关 性 。 专 利 的 被 引文 量 在 评估 专利 技术 价值 方 
面 有 有 不 可 将 代 的 作用 ,但 在 评估 新 近 发 表 的 专利 价 
什 议 面 , 其 评估 作用 远 不 如 IPC 分 类 数 和 权利 要 求 数 ， 
这 无 其 适应 本 文 研究 专利 数据 的 时 间 特 征 。 原 始 的 专 
利 淡 献 中 有 IPC 分 类 号 和 权利 要 求 两 个 条 目 ,运用 统 
证 疗法 ,计算 出 每 篇 专利 文献 中 IPC 分 类 号 的 数量 和 
械 利 要 求 的 数量 。 利 用 PC 分 类 数 和 权利 要 求 数 不 仅 
三 现 评 估 其 技术 价值 ,而 且 可 以 评估 其 潜在 技术 价值 。 
运 基 量化 方法 的 思想 ,将 两 者 分 别 乘 以 调节 系数 (a、 
B) 所 相 加 , 相 加 后 的 数值 表示 专利 具有 的 潜在 技术 价 
值 加 
.SIPC, (IPC-Claim) 表示 专利 的 潜在 技术 价值 ,计算 
公开 如 式 (4) 所 示 。PPCe 表示 专利 具有 的 潜在 技术 价 
值 ,TPCe 值 越 大 ,表示 专利 具有 的 潜在 技术 价值 越 大 ， 
反之 亦 然 。 权 利 要 求 数 与 IPC 分 类 数 是 专利 文本 的 两 
项 独立 的 指标 , 且 权 利 要 求 数 往往 大 于 IPC 分 类 数 ,又 
因 不 同 的 专利 技术 领域 内 两 者 的 差异 有 不 同 ,所 以 设 
置 调 节 系数 a 和 Bi" 使 两 者 对 整体 的 贡献 度 相 同 , 调 
节 系数 的 设置 取决 于 当前 语料库 内 数据 ,计算 公式 如 
式 (5) (6) 所 示 。 

IPC.(i) =aN_Claim, +BN_IPC,(i<=N 0<aw< 


=1 8> =1) 式 (4) 
站 
a= 本 (1+ 六 式 (5) 
2 Claim. 
1 5 Claim, 
B=7(l+ 式 (6) 
SPC,; 


其 中 ,N 表示 语料库 专利 文档 的 数量 ;N_Claim; 表 


示 第 i 篇 专利 文档 中 权利 要 求 的 数量 ;N_IPC, 表示 第 i 
篇 专利 文档 中 IPC 分 类 号 的 数量 ; > Claim, 表示 语 料 


库 内 权利 要 求 数 的 总 和 ; 1PC, 表示 语料库 内 IPC 分 
类 数 的 总 和 。 

IPCen ( IPC-Claim-Normalization ) 是 将 IPCe 归 一 
化 ,如 式 (7) 所 示 。 由 于 IPCc 的 数值 较 大 会 影响 到 后 
面 技术 主题 潜在 价值 度 (TLC) 的 定义 和 科学 计算 结 
果 , 经 实验 和 讨论 后 决定 将 IPCe 进行 离 差 标准 化 ”处 
理 ,经 试验 检测 ,计算 结果 符合 实验 的 预期 效果 。 

IPCen 仍 表示 专利 具有 的 潜在 技术 价值 。 


IPC, -1PC. 


PC (D) =jp6 -Ipe (< =) 式 (7) 


其 中 ,7PC, 表示 IPCe 中 的 第 i 个 值 ; 1PC， 表 示 


IPCe 中 最 小 的 值 ;1PC。 表 示 IPCe 中 最 大 的 值 。 

IPC,,.( IPC-Claim-Normalization-Sum ) 是 技术 主题 
的 IPC, 之 和 ,如 公式 (8) 所 示 。 由 图 1 研究 设计 图 可 
以 观察 到 ,文档 - 主题 矩阵 指向 连接 IPC,, 和 下 Cu 的 
有 向 线段 的 中 部 。 在 定义 IPC,. 时 ,为 了 解决 表示 技术 
主题 潜在 技术 价值 不 同 的 难题 ,通过 实验 为 文档 - 主 
题 矩 阵 设置 合适 的 国 值 ,筛选 出 每 篇 文档 中 典型 的 技 
术 主 题 ,新 的 文档 - 主题 矩阵 中 使 用 数字 1 表示 技术 
主题 出 现在 当前 专利 文档 ,数字 0 表示 技术 主题 未 出 
现在 当前 专利 文档 ,这 样 就 可 以 建立 新 文档 - 主题 矩 
阵 与 IPC, 的 映射 关系 ,匹配 出 每 个 技术 主题 各 自 对 应 
的 IPC, ,从 而 解决 了 如 何 表示 技术 主题 潜在 技术 价值 
的 问题 ,完成 对 IPC, 的 定义 和 计算 。IPC,, 表 示 技 术 
主题 所 具有 的 专利 潜在 技术 价值 之 和 ,1PC, 的 值 越 
大 ,表示 技术 主题 具有 潜在 技术 价值 的 专利 越 多 ,反之 
亦 然 。 


0 0 式 (8) 
其 中 ,P 表示 属于 每 个 技术 主题 的 专利 文档 的 数 
量 , 每 个 技术 主题 的 专利 文档 的 数量 不 同 ; M 表示 技术 
主题 数量 ;IPC.,.(j) 表示 技术 主题 j 的 IPC, 累加 之 和 。 

(2) 工 级 量化 指标 定义 。TVC (Topic Value Cen- 
trality ) 是 技术 主题 的 CTS( Corpus Topic Standard ) 的 倒 
数 与 TWM(Topic Word Mean ) 的 乘积 ,如 式 (9) 所 示 。 
TVC 表示 技术 主题 中 心性 的 强 弱 , 即 技术 主题 在 当前 
阶段 所 具有 的 技术 价值 。TVC 值 越 大 ,表示 技术 主题 


在 当前 所 具有 的 技术 价值 越 大 ,反之 亦 然 。 
TVCO) = ie xTWM,(i< =M) 式 (9) 


M 表示 主题 的 数量 ;CTS; 表示 主题 j 的 语料库 主 
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题 概率 标准 差 值 ;TWM, 表示 主题 j 的 特征 词 概率 平均 
值 。 

TLV(Topic Latent Value ) 是 技术 主题 的 CTM ( Cor- 
pus Topic Mean) 与 PC 的 乘积 ,计算 公式 如 式 (10) 所 
示 。TLV 表示 技术 主题 潜在 技术 价值 的 大 小 , 即 技术 
主题 在 未 来 阶段 所 具有 的 技术 价值 。TLV 值 越 大 , 表 
示 技 术 主 题 在 未 来 所 具有 的 技术 价值 越 大 ,反之 亦 然 。 

TLV(]) = CTM, x IPC, (7 < =M) 式 (10) 

M 表示 主题 的 数量 ;CTM 表示 主题 j 在 语料库 内 
的 均值 ;IPC,,, 表 示 主 题 j 的 IPC,, 之 和 。 

(3) [级 量化 指标 定义 。TI(Topic Innovation ) 是 
TVC( Topic Value Centrality ) 与 TLV (Topic Latent Val- 
ue) 的 乘积 ,同时 也 是 融合 多 属性 来 识别 技术 创新 主题 
的 蜡 化 指标 ,如 公式 (11) 所 示 。T 了 I 表示 技术 主题 创新 
独 例 强 弱 , 即 技术 主题 所 具有 的 创新 价值 。TI 值 越 大 ， 
表示 技术 主题 的 创新 价值 越 大 ,反之 亦 然 。 
7170) =TVC, x TLV(j < =M) 


式 (11) 


Ee 中心 度 值 ;TIV, 表示 主题 j 的 技术 主题 创新 价值 


Cs 
2 技术 创新 主题 挖 所 


技术 创新 主题 识别 


EN 


“= 量化 指标 体系 构建 完毕 ,技术 创新 主题 可 以 通过 


技术 主题 创新 度 (TI) 识别 出 来 ,但 是 单纯 的 数值 对 于 
续 毗 的 呈现 效果 并 不 佳 ,借助 知识 图 谱 旦 现 主题 创新 
度 隐 结果 ,可 以 直观 地 识别 出 技术 创新 主题 。 

2352 技术 创新 主题 标记 

OO 技术 创新 主题 标记 阶段 是 本 文 研究 的 汇聚 阶段 ， 
前 面 4 个 阶段 都 在 为 这 个 阶段 做 准备 。 技 术 创新 主题 


昌 被 识别 出 来 ,但 每 个 技术 创新 主题 并 没有 一 个 恰当 
的 标记 ,这 个 阶段 的 任务 就 是 利用 前 面 4 个 阶段 已 有 
的 数据 结果 标记 创新 主题 。 根 据 IPC. 数 对 属于 每 个 
创新 主题 的 专利 设置 不 同 的 闵 值 ,挑选 出 合适 数量 的 
专利 文档 。 经 过 讨论 ,决定 使 用 主题 下 专利 的 IPC 分 
类 说 明和 特征 词 定义 技术 创新 主题 ,但 在 实验 阶段 发 
现 创新 主题 的 某 些 特征 词 专业 性 不 强 , 经 过 反复 讨论 
和 实验 ,确定 将 创新 专利 文档 的 标题 分 割 去 重 , 然 后 从 
中 挑选 合适 的 词汇 蔡 换 创新 主题 中 专业 性 较 弱 的 特征 
词 。 最 终 根 据 IPC 分 类 说 明和 优化 后 的 特征 词 完 成 对 
技术 创新 主题 的 标记 。 


3 实验 验证 


3.1 获取 数据 和 预 处 理 

实验 验证 语 料 选择 芯片 领域 的 专利 文献 ,从 专利 
数据 库 Total Patent 下 载 2014 - 2018 年 芯片 领域 的 英 
文 专利 文献 ,共计 9 197 篇 ;检索 表达 式 为 Ti: (integrat- 
ed circuit OR microcircuit OR microchip OR chip ) ;下 载 
的 专利 文档 条 目 包括 标题 摘要、IPC 分 类 号 、 权 利 要 

构建 LDA 主题 模型 的 语 料 使 用 芯片 专利 文档 条 
目 中 的 摘要 ,利用 Python 的 自然 语言 工具 包 - 
NLTK™ 完成 对 摘要 的 预 处 理 。 
3.2 构建 主题 模型 
3.2.1 确定 最 优 主 题 数 

在 构建 LDA 主题 模型 之 前 ,除了 需要 准备 预 处 理 
过 的 语 料 ,还 要 确定 最 优 主题 数 ,本 文 使 用 工具 包 - 
sklearn 计算 0 至 100 之 间 主 题 数 的 困惑 度 值 ,完成 
最 优 主题 数 的 确定 ,如 图 3 所 示 


LDA 不 同 主题 数 的 困惑 度 


340 


320 


3001 


280] 


困惑 度 


250 


240 


220 


1 6 更 6 和 汤 


站 
主题 数 


7 81 8 9 % 


图 3 主题 数 困惑 度 
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(11) :96 -107. 


由 图 3 可 以 看 出 ,主题 数 在 31 附近 时 的 困惑 度 最 | 主题 (Doc-Topic) 概率 分 布 和 矩阵 和 主题 - 特征 词 ( Topic- 


小 ,因此 确定 31 为 LDA 主题 模型 的 最 优 主 题 数 。 Termm ) 概率 分 布 矩 阵 , 和 矩阵 的 局 部 如 表 2、 表 3 所 示 : 
3.2.2 构建 LDA 主题 模型 表 1 LDA 初始 化 信息 

向 量 空间 模型 的 构建 使 用 工具 包 -sklearn™" | ,设置 序号 初始 化 条 目 数量 
特征 词 数 为 2 000 个 ,然后 生成 词 频 ( 正 ) 和 矩阵 、 逆 文本 1 专利 文档 数 9 197 
(IDF) 和 矩阵 ,TF-IDF 和 矩阵 ,三 个 矩阵 的 行列 数 均 为 9 197 。 od ss 

、 ek 3 分 词 数 1 157 761 692 
和 2 000。 读 取 TF-IDF 矩阵 ,将 LDA 的 主题 数 设 置 为 上 
主题 妆 

31 ,迭代 次 数 设 置 为 100,LDA 的 初始 化 信息 如 表 1 所 。 ean ji 


示 。LDA 模型 的 构建 使 用 LDA 工具 包 '” ,生成 文档 - 
表 2 文档 - 主题 (Doc-Topic) 概率 分 布 矩 阵 局 部 


Topic-l Topic-2 Topic-3 Topic4 Topic-5 
Doc-l 9.37E-07 9.37E-07 12.7E-02 9.37E-07 3.60E-02 
Doc-2 1. 39E-06 1. 39E-06 1. 39E-06 1. 39E-06 1. 39E-06 
Doc-3 8.09F-07 8.09F-07 4. 09E-02 8.09F-07 1.61E-01 
~ Doc-4 1. 09E-06 1. 09E-06 1.09F-06 1. 09E-06 1. 60E-01 
站 = Dees5 5.27E-07 5.27E-07 5.27E-07 9.15E-01 5.27E-07 
™ 
CN 表 3 主题 - 特征 词 ( Topic-Term ) 概率 分 布 矩 阵 局 部 
= 3d 3dic 3dics affix agent 
eTopic-1 3.27E-10 3.27E-10 3.27E-10 3.27E-10 3.27E-10 
Topic-2 1.78E-04 3.60E-10 3.60F-10 3.60E-10 3.60E-10 
CA ToPic3 3.34E-07 1.75E-10 1.75E-10 1. 81E-04 1.75E-10 
CNroic4 3.41E-07 2. 13E-10 2.13E-10 4. 92E-04 2. 13E-10 
ronics 1.25E-10 1.25E-10 1.25E-10 1.25E-10 1.25E-10 
加 图 
3.g 计算 量化 指标 表 5 CTS 
3 交 、 是 二 本 二 
3 基于 LDA 概率 分 布 矩 阵 计 算 量 化 指标 序号 技术 主题 CTS | 序号 技术 主题 CTS 
(D0 ) 计 算 CTM ( Corpus Topic Mean ) 和 CTS (Corpus 1 Topic-l 0.07 | 17 Topic-17 0.07 
i | 计量 口上 | > 全 
Tobie Standard ) 。 利 用 文档 - 主题 矩阵 分 别 计算 每 个 2 Topic-2 0.09 | 18 Topic-18 0.09 
s 十 上 且 辣 粒 庆 沙 填 次 人 > . . 
芯 吗 技术 主题 在 语料库 范围 内 概率 的 平均 值 ( 式 (1) ) 3 Topic-3 0.12 | 19 Topic-19 0.08 
准 本 [= 1 EE ED Ey 浪 
和 标准 差 ( 式 (2))。 最 终 的 计算 结果 保留 两 位 小 数 ， 4 Topic-4 0.12 20 Topic-20 0.1 
如 表 4、 表 5 和 图 4 所 示 : 5 Topie3 | 训 Topic-21 0.03 
表 4 CIM 6 Topic-6 0.11 22 Topic-22 0.1 
序号 技术 主题 CTM | 序号 技术 主题 CIM . Topic-7 0.08 | 23 Topic-23 0.09 
1 Topic-1 0.03 17 Topic-17 0.02 
2 Topic-2 0.02 18 Topic-18 0.02 8 Topic-8 0. 09 24 Topic-24 0.07 
3 Topic-3 0.05 19 Topic-19 0.02 9 Topic-9 0.08 25 Topic-25 0.1 
4 Topic-4 0.04 20 Topic-20 0.02 
10 Topic-10 0.0 26 Topic-26 0.08 
5 Topic-5 0.07 | 21 Topic-21 0.03 四 区 
6 Topic-6 0.03 22 Topic-22 0.03 11 Topic-11 0.08 27 Topic-27 0.11 
7 Topic-7 0.02 23 Topic-23 0.02 
但 Topic-12 0.08 28 Topic-28 0.12 
8 Topic-8 0.04 24 Topic-24 0.01 
9 Topic-9 0.02 25 Topic-25 0.04 13 Topic-13 0.09 29 Topic-29 0.09 
10 Topic-10 0.03 26 Topic-26 0.03 14 Topic-14 0 12 30 Topic-30 0.09 
11 Topic-11 0.02 27 Topic-27 0.06 
12 Topic-12 0.03 28 Topic-28 0.05 15 Topic-15 0.09 31 Topic-31 0.09 
13 Topic-13 0.03 29 Topic-29 0.03 16 Topic-16 0.08 
14 Topic-14 0.04 30 Topic-30 0.02 
15 Topic-15 0.04 31 Topic-31 0.02 
16 Topic-16 0.03 
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各 主 


题 概 率 分 布 在 语料库 的 标准 差 和 平均 值 


ll 


0 标准 差 
值 


2 Tapic-3 Topic-4 Te 


(2 ) 计 算 TWM (Topic Word Mean ) 。 


5 Topic-6 Tapic 了 Tapio-8 Topio-9Topio-I0Tapic-11Topic-12Topic- Te 


4 Topic-15Topic-16Topic-17 Topic-18 qpic-19 Topic-20 Topic-21Topic-22Topic-23 Tapic-24Topic-25 Topic-25 Topic-27 Topic-28 Topic-29 Topic-30 Te 


4 CTM 和 CTS 


利用 主题 - 


特征 词 年 阵 计算 每 个 芯片 技术 主题 的 特征 词 概 率 平均 


值 G (3) ) 。 


首先 使 用 四 分 位 数 法 “选取 各 技术 主题 


的 光 效 特征 词 ,每 个 技术 主题 选 耻 了 32 个 最 能 表达 主 
表 6 


题 的 特征 词 ,如 表 6 所 示 ,然后 计算 各 主题 下 特征 词 概 
率 平均 值 (TWM ) ,最 终 的 计算 结果 保留 两 位 小 数 , 如 
表 7 所 示 。 


基于 四 分 位 数 法 的 主题 - 特征 词 概率 分 布 矩 阵 局 部 


Topic -1 概率 值 降 序 排序 Topic -2 概率 值 降序 排序 Topic -3 概率 值 降 序 排 序 Topic -4 概率 值 降 序 排序 
device 0.289 200 135 wafer 0.209 738 975 i 0.379 672 634 aigoal 0.171 639 651 

< 6 0. 108 120 538 unit 0.099 284 345 Package 0.194 450 518 outpiit 0.061 679 928 

二 1 0.071 547 453 support 0. 098 626 190 0. 138 210 838 Sn 0.057 841 045 

Cd interace 0.059 826 328 0nse 0.063 709 929 polymet 0.029 836 326 二 0.038 605 892 

(ex | i 0.053 534 709 underfill 0.026204514 encapsulant 0.026334772 image 0.037 023 626 

OY extemal 0.042 067 096 请 0.021 817 573 attach 0.024 680 234 port 0.032 833 949 

表 7 TWM 3.3.2 ”基于 专利 文献 评价 指标 计算 量化 指标 

局 技术 主题 TWM | 序号 技术 主题 TWM (1 ) 计算 IPCe (IPC-Claim) 和 IPCen (IPC-Claim- 

工 Topie-l 0.28 | 17 Topie-17 0.25 Normalization ) 。 读 取 芯 片 专利 语料库 的 IPC 和 权利 要 
9 Topic2 0.25 | 418 Topic-18 0.28 求 条 目 数据 ,然后 将 IPC 分 类 号 和 权利 要 求 按 各 自 条 
3 Topic-3 0.29 | 19 Topie-19 0.24 目 组 织 数 据 的 特点 分 割 成 单一 IPC 和 权利 要 求 , 运 用 
4 Topic4 0.22 | 20 Topic-20 0.28 统计 学 知识 统计 两 个 条 目 中 分 割 后 的 数量 ,替代 原 
5 Topie-5 0.31 | 21 Topic-21 0.28 IPC 和 权利 要 求 条 目 , 更 新 后 的 PC 和 权利 要 求 条 目 
6 Topic-6 0.28 | 22 Topic-22 0.23 如 表 8 所 示 。 最 后 计算 每 篇 专利 的 PCc( 式 (4) ) ,在 
7 Topic-7 0.26 | 23 Topic-23 0.24 芯片 语料库 新 建 IPCc 条 目 ,如 表 8 中 的 新 增 条 目 IPCe 
8 Topic-8 0.30 24 Topic-24 0.27 所 示 。 
9 Topic 9 0 .27 25 Topie-25 0 27 (2 ) 计算 IPCen (IPC-Claim-Normalization ) 。 使 用 
10 Topic-10 0.22 | 26 Topic-26 0.24 离 差 标准 化 方法 将 IPCe 条 目的 数据 归 一 化 处 理 后 ， 
11 Topic-11 0.28 | 27 Topic-27 0.30 利用 结果 数据 在 芯片 语料库 新 建 耻 Cen 条 目 ,计算 ( 式 
12 Topic-12 0.28 | 28 Topic-28 0.30 (7) ) 结 果 如 表 8 中 的 新 增 条 目 PCcn 所 示 。 
13 Topic-13 0.29 | 29 Topic-29 0.22 3.4 识别 技术 创新 主题 
14 Topic-14 0.30 | 30 Topic30 0.24 这 一 市 的 实验 共 分 为 两 部 分 ,计算 技术 主题 价值 
15 Topie-15 0.18 | 31 Topic31 0.27 中 心 度 (TVC) ,技术 主题 潜在 价值 度 (TLV) .主题 创新 
16 Topic-16 0.29 度 (TI) ,并 可 视 化 识别 技术 创新 主题 。 
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(11) :96 -107. 
表 8 芯片 专利 语料库 新 建 IPCec 和 IPCen 条 目 局 部 
序号 摘要 权利 要 求 IPC 标题 IPCe IPCen 
1 A package is formed by 20 4 Stress relieved th 24 0.17 
2 An integrated circuit in 18 5 Integrated circuits 23 0.17 
3 A flexible package may 20 6 FLEXIBLE PAC 26 0.19 
4 Electronic module, wh 20 7 CHIP ASSEMB 2 0.20 
5 Methods and structures 20 5 Packaging identic 25 0.18 
6 An embodiment of a m 26 3 Indexing of electr 29 0.21 
7 A power and ground sh 9 8 Power and groun 17 0.12 
8 Metal pillars are placed 20 31 Solder bump plac 51 0.40 
9 Chip package structures 20 9 Method for formin 29 0.21 
10 The fabrication of an el 20 4 Electronic docum 24 0.17 


(1) 参 照 式 (9) (10) (11) 分 别 计算 TVC .TLV 和 
TI, 计 算 结 果 保 留 两 位 小 数 , 如 表 9 所 示 : 
表 9 技术 主题 创新 度 
gi 技术 主题 价值 技术 主题 潜在 技术 主题 


这 号 技术 主题 a 了 本 
二 中 心 度 (TVC) 价值 度 (TLV ) 创新 度 (TI) 
看 
oplc- 。 。 。 
NTopic-l 20.00 17.59 351. 80 
©@ Toic2 13. 89 6.17 85.70 
©O Topic-3 12.08 28. 81 348. 02 
图 
局 下 Topic4 9.17 14.52 133. 15 
Topic-5 12.92 61.11 789. 54 
6 Topic-6 12.73 11.96 152. 25 
CTomic7 16.25 5.29 85.96 
EN Topicg 16.67 21.75 362.57 
加 图 
9 注 Toic9 16. 88 5.93 100. 10 
> Topic-10 12.22 9.23 112.79 
钠 。 
te Topic-11 17.50 7.70 134.75 
l= Topic-12 17.50 11.20 196. 00 
己 Topic-13 16.11 10.81 174. 15 
攻 》 Topic-14 15.00 23.30 349.50 
15 Topie-15 7.50 14.23 106.72 
16 Topic-16 16.11 14. 14 227. 80 
17 Topic-17 15.62 6.91 107.93 
18 Topic-18 20.00 8.91 178.20 
19 Topic-19 13.33 6.53 87.04 
20 Topic-20 17.50 6.62 115. 85 
21 Topic21 14.00 10.67 149.38 
22 Topic-22 11.50 9.37 107.76 
23 Topic-23 13.33 5.13 68.38 
24 Topic-24 19.29 1.70 32.79 
25 。 Topic-25 13.50 28.92 390. 42 
26 Topic-26 15.00 13.26 198. 90 
27 Topic-27 13.64 45.84 625.26 
28 Topic-28 12.50 29.90 373.75 
29 Topic-29 12.22 9.99 122.08 
30 Topic-30 13.33 6.35 84. 65 
31 Topic31 15.00 4.78 71.70 


(2) 可 视 化 识别 技术 创新 主题 。 本 文 研究 的 中 心 
思想 是 通过 提出 一 种 融合 多 属性 的 量化 方法 ,快速 有 
效 地 挖掘 出 多 个 技术 创新 主题 ,具体 思路 就 是 首先 利 
用 LDA 挖掘 出 技术 主题 ,其 次 融合 多 属性 从 这 些 技术 
主题 中 挖掘 出 几 个 可 能 最 具 创 新 价值 的 技术 主题 , 然 
后 通过 邀请 领域 专家 对 挖掘 出 的 技术 主题 做 一 个 专业 
的 评判 ,如 果 专 家 的 评分 表明 技术 主题 有 价值 ,那么 本 
文 的 研究 工作 就 是 有 意义 的 ;相反 ,如 果 专 家 的 评分 表 
明 技 术 主 题 没有 价值 ,那么 本 文 提出 的 方法 就 是 错误 
的 。 通 过 TI 值 大 小 选取 5 个 技术 主题 ,符合 本 文 的 研 
究 目的 一 一 快速 且 有 效 地 挖掘 多 个 可 能 最 具 创 新 价值 
的 技术 主题 。 

可 视 化 时 借助 热力 图 呈现 TVC TLV 和 TI 的 计算 
结果 。 实 验 过 程 中 ,发 现 由 于 卫 的 值 相 对 较 大 ,导致 
热力 图 中 技术 主题 的 TVC 和 TLV 区别 不 明显 。 重 复 
几 次 实验 验证 ,将 代 值 缩小 5 售后 ,热力 图 效果 最 佳 ， 
可 视 化 结果 见 图 5。 

通过 直观 的 热力 图 和 TI 值 排序 表 ( 见 表 10) ,i 
择 TI 值 前 5 的 技术 主题 作为 技术 创新 主题 ,分 别 
Topic-5 .Topic-27 .Topic-25 Topic-28 和 Topic-8 。 

3.5 技术 创新 主题 的 标记 

(1) 数 据 准 备 。 读 取 有 新 建 条 目 了 PCe 的 芯片 语 料 
库 ,然后 读 取 文档 -主题 矩阵 。 

(2) 数 据 处 理 。 其 一 ,提取 技术 创新 主题 专利 文 
档 。 首 先 将 5 个 技术 创新 主题 在 LDA 生成 的 文档 - 
主题 矩阵 中 对 应 的 部 分 构成 一 个 新 的 文档 - 创新 主题 
矩阵 ,建立 语料库 与 新 矩阵 的 映射 关系 ,提取 出 符合 条 
件 的 专利 文档 。 由 于 符合 条 件 的 专利 文档 数量 较 大 ， 
设置 不 同 头 值 选取 专利 文档 ,依次 将 新 矩阵 中 的 概率 
值 保留 两 位 小 数 .一 位 小 数 和 不 保留 小 数 ,以 创新 主题 
Topic-5 为 例 提取 到 专利 文档 数量 分 别 是 5 284、3 256 
和 122 ,其 他 4 个 主题 呈现 相同 的 递减 规律 。 经 过 讨论 
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技术 主题 创新 度 (四 热力 图 


表 10 技术 主题 创新 度 排序 


技术 主题 二 全 | 序号 技术 主题 。 全 用 
创新 度 (TI) 创新 度 (TI) 
Topic-5 157.66 17 Topic-4 26.57 
Topic-27 125. 14 18 Topic-29 24.38 
Topic-25 78.08 19 Topic-20 23.17 
Topic-28 74.75 20 Topic-10 22.52 
Topic-8 72.43 21 Topic-17 21.56 
Topic-1 70.36 22 Topic-22 21.55 
Topic-14 69.90 23 Topic-15 21.34 
Topic-3 69;72 24 Topic-9 20. 04 
Topic-16 45.53 25 Topic-19 17.44 
Topic-26 39.78 26 Topic-7 17.19 
Topic-12 39:20 27 Topic-2 1 
12 Topic-18 35.64 28 Topic-30 16.95 
13 Topic-13 34.81 29 Topic-31 14.34 
14 Topic-6 30. 50 30 Topic-23 13.70 
15 Topic-21 29.88 31 Topic-24 6.56 
16 Topic-11 26.95 


确定 使 用 不 保留 小 数 的 矩阵 生成 布尔 索引 与 语料库 映 
射 提取 合理 数量 的 专利 文档 , Topic-5、Topic-8、Topic- 
25 ,Topic-27 .Topic-28 这 5 个 创新 主题 对 应 文档 数量 分 
别 是 122 87 121 134 .165 。 

其 二 ,将 IPC 和 标题 分 割 去 重 。 每 个 技术 创新 主 
题 对 应 的 专利 文档 已 经 明确 ,分 别提 取 各 技术 创新 主 
题 的 专利 文档 的 PC 和 标题 条 目 内 容 ,根据 各 自 条 目 
的 内 容 特点 进行 分 割 然后 去 重 操作 ,去 重 后 统计 每 个 
主题 下 IPC 的 数量 ,如 表 11 所 示 ,数量 太 大 ,不 利于 创 
新 主题 的 标记 。 


5 技术 主题 创新 度 热力 图 


其 三 ,筛选 技术 创新 主题 的 专利 文档 。 由 于 IPC 
的 数量 问题 ,导致 无 法 有 效 标记 技术 创新 主题 ,经 过 实 
验 和 讨论 ,解决 这 个 问题 的 方法 是 首先 将 创新 主题 的 
专利 文档 按照 IPCe 的 数量 排序 ,并 按 IPCe 数 分 组 统 
计 专 利文 档 的 数量 和 IPC 的 数量 ,然后 再 将 Topic-5、 
Topic-8 .Topic-25 、Topic-27 .Topic-28 依次 分 别 取 IPCe 
的 数量 大 于 32 29 .29 31 和 30 的 分 组 ,最 后 统计 算 选 
后 的 5 个 创新 主题 的 专利 文档 数 和 IPC 数 的 结果 ,如 


表 12 所 示 : 

表 11 技术 创新 主题 的 PC 去 重 后 的 数量 

序号 技术 创新 主题 IPC 数 
1 Topic-5 123 
2 Topic-8 100 
3 Topic-25 169 
4 Topic-27 97 
5 Topic-28 130 


表 12 统计 标记 技术 创新 主题 的 专利 文档 数量 和 IPC 数量 


序号 技术 创新 主题 专利 文档 数 IPC 数 
1 Topic-5 10 31 
2 Topic-8 13 27 
3 Topic-25 10 29 
4 Topic-27 11 40 
5 Topic-28 11 44 


(3) 标 记 结 果 。 技 术 创新 主题 的 标记 根据 优化 后 
的 专利 IPC 说 明和 创新 特征 词 , 其 中 创新 特征 词 的 
确定 是 基于 专利 文档 标题 条 目 内 容 的 分 词 结果 和 四 分 
位 数 法 优化 后 的 主题 - 特征 词 矩 阵 中 的 特征 词 ,每 个 
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尺 直 片 顾 总 专利 为 全 [CRWY 舍 伤 期 开 


创新 主题 都 由 30 个 创新 特征 词 标 记 , 将 Topie-5 .Topic- 
27 .Topic-25 .Topic-28 .Topic-8 按照 TI 值 大 小 依次 重新 
命名 为 C-Topic-1 、C-Topic-2 、C-Topic-3 、C-Topic-4 、C- 
Topic-5 ,根据 IPC 说 明和 特征 词 完 成 对 技术 创新 主题 
的 标记 。 创 新 主题 的 标记 结果 如 表 13 所 示 : 

表 13 创新 主题 标记 


技术 创新 主题 标记 结果 
C-Topic-l 围绕 半导体 衬 底 的 封装 技术 ,包括 管 芯 相 对 于 衬 底 的 位 
置 以 及 衬 底 本 身 的 特殊 构造 ,如 止 槽 等 。 
C-Topic-2 接触 垫 在 芯片 封装 中 的 应 用 。 
Cr-Topic-3 集成 电路 或 系统 中 模块 的 功能 配置 及 互 连 。 


C-Topic4 


半导体 器 件 、 集 成 电路 各 区 域 或 各 层 的 设计 制造 。 
半导体 芯片 (包括 衬 底 ) 中 焊 盘 的 设计 和 互 连 。 


C-Topic-5 


3.6 结果 验证 

蕊 本 文 研究 数据 选取 2014 - 2018 年 芯片 领域 专利 
数据 ,对 挖掘 出 的 技术 创新 主题 有 效 性 采用 以 下 两 种 
种 汪 方式 评估 : 

3《D1 芯片 领域 权威 专家 评估 

@ 贞 于 领域 内 的 技术 主题 在 一 定 程度 上 相互 交叉 重 
奸 社 ,拟定 的 技术 创新 主题 也 存在 一 定 程度 的 重 伙 ， 
昌 生 评分 并 不 符合 有 效 性 的 准则 ,专家 通过 对 拟定 的 
Re 


请 了 5 名 微 电 子 领域 的 专家 ,他 们 在 芯片 技术 创 
新 领域 具有 专业 知识 和 丰富 经 验 。 具 体 评分 规则 为 :1 
分 代表 技术 创新 主题 的 质量 由 低 到 高 ,技术 创新 
本 3 个 方面 考量 :技术 价值 .创新 价 
值 项 应 用 价值 ,每 位 微 电 子 专家 都 对 5 个 拟定 的 技术 
创 蜂 主 题 给 出 自己 专业 的 评判 ,最 后 评分 如 图 6 所 示 ， 


评 邹 统计 结果 见 表 14。 
专家 评分 统计 图 
过 
本 4 

3 

p 

1 

0 一 专家 1 专家 4 专家 5 
6 专家 评分 


专家 2 专家 3 
领域 专家 
3.6.2 最 新 国内 外 芯片 技术 研究 
芯片 技术 跨 入 后 摩尔 定律 时 代 ,基于 芯片 制 
造 环节 的 深度 摩尔 定律 和 基于 芯片 封装 环节 的 超越 摩 
尔 定律 已 经 到 来 。 甚 中， 深度 摩尔 定律 多 应 用 于 沟 道 


需 全 呵 ” 而 


表 14 专家 评分 统计 


序号 统计 指标 分 值 
1 最 低 分 6.6 
2 最 高 分 8 
3 平均 分 7.2 
4 标准 差 0.456 


材料 器 件 结构 、 连 接 导 线 、 高 介质 金属 栅 等 方面 的 创 
新 研发 ,在 数字 电路 中 应 用 较 多 ;超越 摩尔 定律 的 主要 
应 用 在 于 将 不 同 模块 使 用 封装 技术 异 质 集成 在 同一 封 
装 中 ,在 模拟 电路 中 应 用 较 多 。 本 文 挖掘 的 技术 创新 
主题 符合 最 新 世 片 技术 范畴 ,其 中 C-Topic-1 、C-Topic- 
2、C-Topic-3 属于 芯片 封装 环节 的 创新 研发 主题 ; C- 
Topiec4 .C-Topie-5 属于 芯片 制造 环节 的 创新 研发 主 
题 ,如 表 15 所 示 : 
表 15 技术 创新 主题 的 芯片 技术 范畴 


技术 创新 主题 标记 结果 芯片 技术 范畴 
C-Topic-1 ”围绕 半导体 衬 底 的 封装 技术 ,包括 管 世相 对 ”超越 摩尔 定律 
于 衬 底 的 位 置 以 及 衬 底 本 身 的 特殊 构造 ,如 
凹 槽 等 
C-Topic-2 接触 垫 在 芯片 封装 中 的 应 用 超越 摩尔 定律 
C-Topic-3 ”集成 电路 或 系统 中 模块 的 功能 配置 及 互 连 ”超越 摩尔 定律 
C-Topic4 ”半导体 器 件 、 集 成 电路 各 区 域 或 各 层 的 设计 ”深度 摩尔 定律 
制造 
C-Topic-5 半导体 芯 片 (包括 衬 底 ) 中 焊 盘 的 设计 和 互 ”深度 摩尔 定律 
连 
4 结语 


本 文 提出 一 种 融合 多 属性 的 量化 方法 ,快速 且 有 
效 地 挖 据 出 多 个 技术 创新 主题 。 方 法 的 整体 思路 是 利 
用 LDA 挖掘 技 术 主 题 ,然后 融合 多 属性 挖掘 技术 创新 
主题 。 表 14 表明 ,专家 们 对 挖掘 出 的 技术 创新 主题 的 
价值 是 肯定 的 ; 表 15 表明 ,5 个 技术 创新 主题 都 属于 
后 摩尔 时 代 ” 芯片 技术 创新 研发 的 方向 。 根 据 两 种 
评估 方法 的 结果 ,可 以 确定 本 文 提出 的 融合 多 属性 快 
速 挖掘 领域 技术 创新 主题 的 方法 是 有 效 的 。 本 文 可 能 
存在 的 争议 是 在 3.4(2) 部 分 中 选取 技术 创新 主题 的 
数量 多 少 上 ,本 文选 取 5 个 技术 主题 作为 技术 创新 主 
题 符合 本 文 的 研究 目的 (快速 且 有 效 地 挖掘 领域 内 多 
个 技术 创新 主题 ) ,至 于 “多 个 技术 创新 主题 "的 最 优 
数量 , 接 下 来 将 会 通过 进一步 的 研究 进行 确定 。 
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Multi-attribute Mining Method for Technology Innovation Subject from the Perspective of Patent 
一 一 The Case of Chip Patents 
Li Hui Xuan Hongsheng 
School of Economics and Management, Xidian University, Xi’ an 710126 
Absiract: | Purpose/ significance | By combining multiple attributes, it can quickly and effectively dig out mul- 
tiple technological innovation themes in the field, providing reference for the determination of technological innovation 
direction. | Method/ process | This paper combined the LDA (Latent Dirichlet Allocation) topic model with the e- 
valuation indicators of patent value, and proposed a quantitative method for mining patent innovation themes. First, 
TF-IDF, means of perplexity and quartile method were used to construct the LDA topic model of the domain patent to 
mine technological topics. Then, the probability distribution matrix output by LDA was combined with the evaluation 
indicators of patent value( claim and IPC) to construct a quantitative indicator system. Then, patents in the chip 
field were selected for verification experiments, quantitative indicators were calculated and visualized by heat map to 
identify the technological innovation themes in the field. Finally, based on the mapping relationship between patent, 
IDBA output matrix, innovation theme and quantitative indicators, innovation patent screening and reasonable marking 
Coljtechnological innovation themes were carried out. | Result/conclusion | By inviting experts in the field of microe- 
Gedtronics and based on the latest chip technology at home and abroad to evaluate the experimental results. The sco- 
ring results show that the method of mining technology innovation topics with multiple attributes can mine multiple 
Cteghnology innovation topics quickly and effectively. At the practical level, it can better provide ideas for enterprises 
QA scientists in related fields to technological innovation themes. 
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《图 书 情报 工作 》 杂 志 社 及 所 属 《 知 识 管理 论坛 》 编 辑 部 与 华中 师范 大 学 信息 管理 学 院 拟 联合 主办 "2020 知识 
管理 与 知识 服务 学 术 研 讨 会 " ,邀请 从 事 知 识 管理 与 知识 服务 相关 研究 与 实践 的 专家 学 者 等 人 员 ,分 享 知识 管理 与 
服务 的 最 新 实践 进展 与 学 术 成 果 。 受 新 冠 肺 炎 疫 情 影响 ,会 议 组 织 者 将 原 定 于 在 丹东 市 举行 的 研讨 会 转向 线 上 举 
行 。 欢 迎 相关 领域 研究 实践 和 管理 人 员 踊 跃 报名 参 会 。 

会 议 主 题 :新 技术 环境 下 知识 管理 与 知识 服务 

会 议 时 间 和 平台 :2020 年 7 月 16 日 全 天 ;超星 学 习 通 

会 议 费 用 :本 次 会 议 是 高 质量 收费 会 议 ,收取 标准 为 :300 元 /每 人 (需要 培训 证 书 者 400 元 /人 ) 。 

会 议 报名 :请 扫描 二 维 码 报名 : 
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